arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日__

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arXiv:2408.09600v2 [cs.AI] 2024 年 9 月 3 日

¥ 1.0

热度

安全对齐的大型语言模型 (LLM) 容易受到有害的微调攻击 (Qi 等人，2023)——微调数据集中混入一些有害数据可能会破坏 LLM 的安全对齐。现有的缓解策略包括对齐阶段解决方案 (Huang、Hu 和 Liu，2024；Rosati 等人，2024a) 和微调阶段解决方案 (Huang 等人，2024；Mukhoti 等人，2023)。然而，我们的评估表明，当选择某些特定的训练超参数时，这两类防御都会失败——微调阶段的较大学习率或大量训练周期很容易使防御失效，但这对于保证微调性能是必要的。为此，我们提出了 Antidote，这是一种后微调阶段解决方案，它与微调阶段的训练超参数无关。 Antidote 的理念是，通过删除有害参数，可以从有害行为中恢复有害模型，而不管这些有害参数在微调阶段是如何形成的。基于这一理念，我们在有害微调之后引入了一次性剪枝阶段，以删除导致有害内容生成的有害权重。尽管 Antidote 非常简单，但实证结果表明，它可以在保持下游任务准确性的同时降低有害分数。我们的项目页面位于 https://huangtiansheng.github.io/Antidote_gh_page/

添加pdf代下载 VIP点击下载文件